24 research outputs found

    Recognition and normalization of biomedical entities within clinical notes

    Get PDF
    Tese de mestrado, Engenharia Informática (Sistemas de Informação), Universidade de Lisboa, Faculdade de Ciências, 2015Os profissionais de saúde, como parte do seu trabalho, têm a obrigação de registar manualmente o seu conhecimento de forma não estruturada, sendo as notas clínicas um dos vários tipos de documentos gerados. As notas clínicas descrevem a situação clínica dos pacientes, contendo informação relativamente aos seus tratamentos, sintomas, doenças, diagnósticos, procedimentos, etc. A introdução desta informação em Electronic Health Records (EHRs) está a ser fortemente encorajada, originando um crescimento exponencial no volume de notas clínicas em formato digital. A disponibilização desta informação em formato digital oferece uma maior liberdade, permitindo uma fácil partilha das mesmas entre instituições médicas, acompanhando assim o percurso do paciente. Nas notas clínicas a informação é registada utilizando a língua natural desprovida de qualquer estruturação. O registo de informação de forma estruturada, apesar de ser recomendado, condiciona o trabalho dos profissionais de saúde. Tal imposição aumenta o tempo necessário para efetuar o registo do conhecimento assim como impõe limites na descrição de casos fora do comum. A aplicação de técnicas de prospeção de texto (text mining) aparece então como solução para o processamento automático da informação não estruturada permitindo a conversão num formato que permita os sistemas computacionais analisar. Dado que os profissionais médicos utilizam diferentes terminologias de acordo com o contexto e a respetiva especialização, o processamento de notas clínicas comporta vários desafios, dada a sua heterogeneidade, ambiguidade e necessidade contextual. São várias as técnicas de text mining utilizadas para resolver estes desafios, sendo neste trabalho exploradas técnicas de aprendizagem automática (Machine Learning), semelhança textual (Pattern Matching), conteúdo da informação (Information Content) e semelhança semântica (Semantic Similarity). O objetivo deste trabalho consiste no estudo e desenvolvimento de um sistema que permita reconhecer e normalizar entidades biomédicas em notas clínicas, assim como o desenvolvimento da respetiva interface. A tarefa de reconhecimento consiste em identificar entidades relevantes em notas clínicas, sendo que a normalização passa pela atribuição, a cada entidade reconhecida, de um identificador único pertencente a um vocabulário controlado. Para tal, o sistema desenvolvido utiliza técnicas de prospeção de texto e usa a ontologia SNOMED CT como vocabulário controlado. Utiliza ainda dois conjuntos de notas clínicas, um não anotado e outro anotado manualmente por profissionais de saúde. Este último conjunto é referido como conjunto de treino. O sistema foi desenvolvido usando uma arquitetura modular em pipeline, composta por dois módulos, recebendo como input um conjunto de notas clínicas não anotadas. A execução do sistema resulta na anotação automática, isto é, no reconhecimento e normalização das notas clínicas recebidas como input. O primeiro módulo é responsável pelo reconhecimento de entidades biomédicas. A estratégia usada consiste na aplicação de algoritmos de aprendizagem automática de forma a gerar um modelo de reconhecimento baseado em casos passados, isto é, notas clínicas manualmente anotadas. O software de aprendizagem automática Stanford NER foi utilizado para gerar modelos CRF (Conditional Random Field). Este módulo comporta dois processos: o de treino e o de execução. No processo de treino, cada palavra (ou token) existente nas notas clínicas é caracterizada com base num conjunto de propriedades entre as quais: Brown clusters, formato do token, vizinhança e léxicos pertencentes a vários domínios. A caracterização de cada token permite que estes sejam representados junto do algoritmo de aprendizagem automática. Este trabalho utilizou o inovador modelo de segmentação SBIEON, permitindo a identificação de entidades não contínuas. O algoritmo de aprendizagem automática vai gerar um modelo de reconhecimento baseado nas propriedades associadas a cada token. O modelo de reconhecimento gerado permite identificar entidades em novas notas clínicas Não anotadas, associando a cada token existente nas respectivas notas clínicas, uma classe pertencente ao modelo de segmentação escolhido. As entidades relevantes são compostas por tokens que tenham sido associados a uma classe relevante. O segundo módulo do sistema é responsável pela normalização das entidades identificadas pelo módulo de reconhecimento como sendo relevantes. Uma arquitetura modular em pipeline é utilizada, sendo cada componente responsável pela normalização de um conjunto restrito de entidades pertencentes a um determinado dicionário. Um total de cinco dicionários são gerados baseados nas notas clínicas de treino (abreviações não ambíguas, entidades não ambíguas e entidades ambíguas) e na ontologia SNOMED CT (entidades ambíguas e não ambíguas). Os primeiros três componentes normalizam as entidades não ambíguos utilizando uma pesquisa de dicionário. A entidade a normalizar é procurada nos dicionários não ambíguos, e caso seja encontrada uma correspondência, o respetivo identificador e associado. O primeiro componente utiliza o dicionário de abreviações, o segundo o dicionário de notas clinicas de treino não ambíguo e o terceiro o dicionário SNOMED CT não ambíguo. O quarto e quinto componente normalizam entidades ambíguas pertencentes às notas clínicas de treino e ao SNOMED CT respetivamente. Em ambos, uma pesquisa de dicionário é efetuada para recolher os identificadores candidatos. O quarto componente desambigua as entidades utilizando uma medida resultante da combinação linear do Information Content e da frequência do identificador nas notas clínicas em questão. O quinto componente baseia-se em entidades previamente normalizadas num mesmo documento, utilizando uma estratégia baseada na semelhança semântica. A entidade ambígua com maior semelhança semântica é a escolhida, assumindo desta forma que entidades pertencentes ao mesmo documento devem ser semelhantes entre si.O último componente normaliza entidades que não estejam representadas em nenhum dos dicionários referidos. Técnicas de Pattern Matching são aplicadas de forma a identificar a entidade candidata textualmente mais semelhante. Esta entidade é depois inserida no pipeline do sistema, sendo normalizada por um dos componentes anteriormente descritos. Para este componente, medidas como o NGram Similarity e Levenhstein foram utilizadas, tendo esta ultima medida sido estendida de forma a permitir medir a semelhança textual entre duas entidades sem ter em conta a ordem dos seus tokens (ExtendedLevenhstein). A interface desenvolvida permite aos utilizadores introduzirem documentos no formato de texto ou através da introdução de um identificador de um artigo no sistema PUBMED ou de um Tweet, sendo efetuada a recolha do texto associado. A interface permite ainda que os utilizadores corrijam ou adicionem novas anotações ao texto, sendo estas alterações registadas pelo sistema. São ainda apresentadas várias estatísticas em tempo real que permitem aos utilizadores navegar entre documentos. O sistema apresentado neste trabalho é resultante de duas primeiras iterações. A primeira foi utilizada para participar no SemEval 2014 e foi desenvolvida pela equipa ULisboa da qual fui autor principal. A segunda foi desenvolvida por mim no âmbito deste trabalho e foi utilizada para participar no SemEval 2015. Ambas as competições endereçavam a tarefa de Analysis of Clinical Text, sendo os sistemas submetidos avaliados oficialmente usando as medidas: precision, recall, F-score e accuracy. De forma a comparar o impacto do uso de machine learning no reconhecimento, desenvolvi adicionalmente um módulo de reconhecimento baseada em regras, permitindo assim comparar o desempenho de ambas as estratégias. Além das avaliações oficiais, o sistema foi igualmente avaliado localmente utilizando as mesmas medidas mas recorrendo a um conjunto de notas clinicas diferentes para avaliação. As avaliações permitiram entender o desempenho do sistema ao longo das várias iterações e do seu potencial atual. Foi possível observar que o sistema apresentado atingiu os objetivos esperados, conseguindo reconhecer e normalizar entidades biomédicas com um elevado desempenho. Olhando para cada módulo individualmente, observou-se que a utilização de algoritmos de machine learning permitiu atingir resultados bastante mais elevados no reconhecimento de entidades, do que aqueles obtidos utilizando uma abordagem baseada em regras. Observou-se ainda que a adição de Brown clusters como propriedades durante o treino melhorou o desempenho do sistema. A adição de léxicos produziu um efeito contrário, reduzindo o desempenho. Olhando apenas para o módulo de normalização, este conseguiu normalizar entidades com uma confiança de 91.3%. Este valor é bastante superior ao obtido pela primeira iteração do sistema que apenas atingiu uma confiança de 60.2%. O sistema como um todo foi avaliado oficialmente nas competições mencionadas. No SemEval 2014 o sistema submetido obteve o 14o lugar na tarefa de reconhecimento e o 25o na de normalização. Já no SemEval 2015, o sistema foi capaz de obter o 2o lugar com uma precision de 77.9%, um recall de 70.5% e um F-score de 74%. A avaliação desta última competição assumiu o reconhecimento e a normalização como uma tarefa única. Estes resultados mostram que o sistema evoluiu bastante, atingindo um excelente desemepenho. O sistema conseguiu ainda superar os resultados obtidos pelo sistema da equipa UTH CCB que na edição de 2014 foi a equipa que obteve a melhor classificação. Este trabalho apresenta um sistema que apesar de usar técnicas state of the art com algumas adaptações, conseguiu atingir um desempenho relevante face a outros sistemas a nível global, possuindo um enorme potencial para atingir melhores resultados. Como trabalho futuro, o módulo de reconhecimento poderá ser melhorado através da introdução de novas propriedades que melhorem a definição das entidades relevantes. Alguns componentes da pipeline de normalização podem ser amplamente melhorados, aplicando novas técnicas de desambiguação e pattern matching, ou mesmo recorrendo a algoritmos learningto rank semelhantes ao apresentado pelo sistema de DNorm é visto igualmente como uma mais valia.Clinical notes in textual form occur frequently in Electronic Health Records (EHRs).They are mainly used to describe treatment plans, symptoms, diagnostics, etc. Clinicalnotes are recorded in narrative language without any structured form and, since each medicalprofessional uses different types of terminologies according to context and to theirspecialization, the interpretation of these notes is very challenging for their complexity,heterogeneity, ambiguity and contextual sensitivity.Forcing medical professionals to introduce the information in a predefined structuresimplifies the interpretation. However, the imposition of such a rigid structure increasesnot only the time needed to record data, but it also introduces barriers at recording unusualcases. Thus, medical professionals are already encouraged to record the information in adigital form, but mostyl as narrative text. This will increase the amount of clinical notes toprocess, and doing it manually requires a huge human effort to accomplish it in a feasible time. This work presents a system for automatic recognition and normalization of biomedical concepts within clinical notes, by applying text mining techniques and using domain knowledge from the SNOMED CT ontology. The system is composed by two modules.The first one is responsible for the recognition and it is based on the Stanford NER Softwareto generate CRF models. The models were generated by using a rich set of features and employing a novel classification system, SBIEON. The second module is responsible for the normalization, where a pipeline framework was created. This modular framework leverages on a set of techniques such as (i) direct match dictionary lookup, (ii) pattern matching, (iii) information content and (iv) semantic similarity. The system was evaluated in the SemEval 2015 international competition, achieving the second best F-score (74%) and the second best precision (77.9%), among 38 submissions. After the competition, this system was improved, increasing the overall performance and reducing the running time by 60%

    Pervasive gaps in Amazonian ecological research

    Get PDF
    Biodiversity loss is one of the main challenges of our time,1,2 and attempts to address it require a clear un derstanding of how ecological communities respond to environmental change across time and space.3,4 While the increasing availability of global databases on ecological communities has advanced our knowledge of biodiversity sensitivity to environmental changes,5–7 vast areas of the tropics remain understudied.8–11 In the American tropics, Amazonia stands out as the world’s most diverse rainforest and the primary source of Neotropical biodiversity,12 but it remains among the least known forests in America and is often underrepre sented in biodiversity databases.13–15 To worsen this situation, human-induced modifications16,17 may elim inate pieces of the Amazon’s biodiversity puzzle before we can use them to understand how ecological com munities are responding. To increase generalization and applicability of biodiversity knowledge,18,19 it is thus crucial to reduce biases in ecological research, particularly in regions projected to face the most pronounced environmental changes. We integrate ecological community metadata of 7,694 sampling sites for multiple or ganism groups in a machine learning model framework to map the research probability across the Brazilian Amazonia, while identifying the region’s vulnerability to environmental change. 15%–18% of the most ne glected areas in ecological research are expected to experience severe climate or land use changes by 2050. This means that unless we take immediate action, we will not be able to establish their current status, much less monitor how it is changing and what is being lostinfo:eu-repo/semantics/publishedVersio

    Pervasive gaps in Amazonian ecological research

    Get PDF

    Global age-sex-specific fertility, mortality, healthy life expectancy (HALE), and population estimates in 204 countries and territories, 1950-2019 : a comprehensive demographic analysis for the Global Burden of Disease Study 2019

    Get PDF
    Background: Accurate and up-to-date assessment of demographic metrics is crucial for understanding a wide range of social, economic, and public health issues that affect populations worldwide. The Global Burden of Diseases, Injuries, and Risk Factors Study (GBD) 2019 produced updated and comprehensive demographic assessments of the key indicators of fertility, mortality, migration, and population for 204 countries and territories and selected subnational locations from 1950 to 2019. Methods: 8078 country-years of vital registration and sample registration data, 938 surveys, 349 censuses, and 238 other sources were identified and used to estimate age-specific fertility. Spatiotemporal Gaussian process regression (ST-GPR) was used to generate age-specific fertility rates for 5-year age groups between ages 15 and 49 years. With extensions to age groups 10–14 and 50–54 years, the total fertility rate (TFR) was then aggregated using the estimated age-specific fertility between ages 10 and 54 years. 7417 sources were used for under-5 mortality estimation and 7355 for adult mortality. ST-GPR was used to synthesise data sources after correction for known biases. Adult mortality was measured as the probability of death between ages 15 and 60 years based on vital registration, sample registration, and sibling histories, and was also estimated using ST-GPR. HIV-free life tables were then estimated using estimates of under-5 and adult mortality rates using a relational model life table system created for GBD, which closely tracks observed age-specific mortality rates from complete vital registration when available. Independent estimates of HIV-specific mortality generated by an epidemiological analysis of HIV prevalence surveys and antenatal clinic serosurveillance and other sources were incorporated into the estimates in countries with large epidemics. Annual and single-year age estimates of net migration and population for each country and territory were generated using a Bayesian hierarchical cohort component model that analysed estimated age-specific fertility and mortality rates along with 1250 censuses and 747 population registry years. We classified location-years into seven categories on the basis of the natural rate of increase in population (calculated by subtracting the crude death rate from the crude birth rate) and the net migration rate. We computed healthy life expectancy (HALE) using years lived with disability (YLDs) per capita, life tables, and standard demographic methods. Uncertainty was propagated throughout the demographic estimation process, including fertility, mortality, and population, with 1000 draw-level estimates produced for each metric. Findings: The global TFR decreased from 2·72 (95% uncertainty interval [UI] 2·66–2·79) in 2000 to 2·31 (2·17–2·46) in 2019. Global annual livebirths increased from 134·5 million (131·5–137·8) in 2000 to a peak of 139·6 million (133·0–146·9) in 2016. Global livebirths then declined to 135·3 million (127·2–144·1) in 2019. Of the 204 countries and territories included in this study, in 2019, 102 had a TFR lower than 2·1, which is considered a good approximation of replacement-level fertility. All countries in sub-Saharan Africa had TFRs above replacement level in 2019 and accounted for 27·1% (95% UI 26·4–27·8) of global livebirths. Global life expectancy at birth increased from 67·2 years (95% UI 66·8–67·6) in 2000 to 73·5 years (72·8–74·3) in 2019. The total number of deaths increased from 50·7 million (49·5–51·9) in 2000 to 56·5 million (53·7–59·2) in 2019. Under-5 deaths declined from 9·6 million (9·1–10·3) in 2000 to 5·0 million (4·3–6·0) in 2019. Global population increased by 25·7%, from 6·2 billion (6·0–6·3) in 2000 to 7·7 billion (7·5–8·0) in 2019. In 2019, 34 countries had negative natural rates of increase; in 17 of these, the population declined because immigration was not sufficient to counteract the negative rate of decline. Globally, HALE increased from 58·6 years (56·1–60·8) in 2000 to 63·5 years (60·8–66·1) in 2019. HALE increased in 202 of 204 countries and territories between 2000 and 2019

    ATLANTIC EPIPHYTES: a data set of vascular and non-vascular epiphyte plants and lichens from the Atlantic Forest

    Get PDF
    Epiphytes are hyper-diverse and one of the frequently undervalued life forms in plant surveys and biodiversity inventories. Epiphytes of the Atlantic Forest, one of the most endangered ecosystems in the world, have high endemism and radiated recently in the Pliocene. We aimed to (1) compile an extensive Atlantic Forest data set on vascular, non-vascular plants (including hemiepiphytes), and lichen epiphyte species occurrence and abundance; (2) describe the epiphyte distribution in the Atlantic Forest, in order to indicate future sampling efforts. Our work presents the first epiphyte data set with information on abundance and occurrence of epiphyte phorophyte species. All data compiled here come from three main sources provided by the authors: published sources (comprising peer-reviewed articles, books, and theses), unpublished data, and herbarium data. We compiled a data set composed of 2,095 species, from 89,270 holo/hemiepiphyte records, in the Atlantic Forest of Brazil, Argentina, Paraguay, and Uruguay, recorded from 1824 to early 2018. Most of the records were from qualitative data (occurrence only, 88%), well distributed throughout the Atlantic Forest. For quantitative records, the most common sampling method was individual trees (71%), followed by plot sampling (19%), and transect sampling (10%). Angiosperms (81%) were the most frequently registered group, and Bromeliaceae and Orchidaceae were the families with the greatest number of records (27,272 and 21,945, respectively). Ferns and Lycophytes presented fewer records than Angiosperms, and Polypodiaceae were the most recorded family, and more concentrated in the Southern and Southeastern regions. Data on non-vascular plants and lichens were scarce, with a few disjunct records concentrated in the Northeastern region of the Atlantic Forest. For all non-vascular plant records, Lejeuneaceae, a family of liverworts, was the most recorded family. We hope that our effort to organize scattered epiphyte data help advance the knowledge of epiphyte ecology, as well as our understanding of macroecological and biogeographical patterns in the Atlantic Forest. No copyright restrictions are associated with the data set. Please cite this Ecology Data Paper if the data are used in publication and teaching events. © 2019 The Authors. Ecology © 2019 The Ecological Society of Americ

    Pervasive gaps in Amazonian ecological research

    Get PDF
    Biodiversity loss is one of the main challenges of our time,1,2 and attempts to address it require a clear understanding of how ecological communities respond to environmental change across time and space.3,4 While the increasing availability of global databases on ecological communities has advanced our knowledge of biodiversity sensitivity to environmental changes,5,6,7 vast areas of the tropics remain understudied.8,9,10,11 In the American tropics, Amazonia stands out as the world's most diverse rainforest and the primary source of Neotropical biodiversity,12 but it remains among the least known forests in America and is often underrepresented in biodiversity databases.13,14,15 To worsen this situation, human-induced modifications16,17 may eliminate pieces of the Amazon's biodiversity puzzle before we can use them to understand how ecological communities are responding. To increase generalization and applicability of biodiversity knowledge,18,19 it is thus crucial to reduce biases in ecological research, particularly in regions projected to face the most pronounced environmental changes. We integrate ecological community metadata of 7,694 sampling sites for multiple organism groups in a machine learning model framework to map the research probability across the Brazilian Amazonia, while identifying the region's vulnerability to environmental change. 15%–18% of the most neglected areas in ecological research are expected to experience severe climate or land use changes by 2050. This means that unless we take immediate action, we will not be able to establish their current status, much less monitor how it is changing and what is being lost

    COVID-19 symptoms at hospital admission vary with age and sex: results from the ISARIC prospective multinational observational study

    Get PDF
    Background: The ISARIC prospective multinational observational study is the largest cohort of hospitalized patients with COVID-19. We present relationships of age, sex, and nationality to presenting symptoms. Methods: International, prospective observational study of 60 109 hospitalized symptomatic patients with laboratory-confirmed COVID-19 recruited from 43 countries between 30 January and 3 August 2020. Logistic regression was performed to evaluate relationships of age and sex to published COVID-19 case definitions and the most commonly reported symptoms. Results: ‘Typical’ symptoms of fever (69%), cough (68%) and shortness of breath (66%) were the most commonly reported. 92% of patients experienced at least one of these. Prevalence of typical symptoms was greatest in 30- to 60-year-olds (respectively 80, 79, 69%; at least one 95%). They were reported less frequently in children (≤ 18 years: 69, 48, 23; 85%), older adults (≥ 70 years: 61, 62, 65; 90%), and women (66, 66, 64; 90%; vs. men 71, 70, 67; 93%, each P < 0.001). The most common atypical presentations under 60 years of age were nausea and vomiting and abdominal pain, and over 60 years was confusion. Regression models showed significant differences in symptoms with sex, age and country. Interpretation: This international collaboration has allowed us to report reliable symptom data from the largest cohort of patients admitted to hospital with COVID-19. Adults over 60 and children admitted to hospital with COVID-19 are less likely to present with typical symptoms. Nausea and vomiting are common atypical presentations under 30 years. Confusion is a frequent atypical presentation of COVID-19 in adults over 60 years. Women are less likely to experience typical symptoms than men

    Matéria-Prima, vol.6, nº1 (Jan./Abr. 2018)

    No full text
    Risco: educação artística: A educação artística enfrenta o risco de desaparecimento gradual do seu habitat da educação formal ao mesmo tempo que a sociedade civil cada vez mais a reclama, no contexto das instituições que dependem do sucesso dos públicos e dos visitantes. Assiste-se a uma contradição de termos que parece ser originária de uma liberalização cognitiva: este parece ser um paradigma para ficar. O neo-liberalismo vigente contribui de modo contraditório. Por um lado, diminui as cargas horárias e extingue disciplinas, expulsa os profissionais artísticos da sala de aula: cada vez há menos horas de contacto de educação artística, do ensino do desenho. Por outro lado, a dependência das lógicas de sponsorização obriga os gestores culturais a urdirem estratégias educativas dirigidas a massas cada vez maiores, a convocarem e a reivindicarem posicionamentos formativos, a procurarem implicar e criar mais audiências. O sistema precisa dos alunos que quer reduzir, numa contradição de termos evidente. O professor de artes, o mediador entre o mundo da arte e a premência educativa vê-se com uma injunção que dele exige uma operatividade quer como pedagogo, quer como artista, integrando várias dimensões numa só, numa incarnação exigente. A educação artística parece depender da criatividade dos seus agentes, da sua mobilização, do seu entusiasmo, da sua competência mobilizadora: os tempos estão adversos ao conformismo e assim se anotam muitas ações desassossegadas e, cremos, implicadas.info:eu-repo/semantics/publishedVersio

    A social and ecological assessment of tropical land uses at multiple scales: the Sustainable Amazon Network

    No full text
    corecore